Kurzfassung
Der Bereich der Teilchenphysik stützt sich bei seinen Analysen in hohem Maße auf
simulierte Daten. Die zunehmende Menge an Messdaten führt dazu, dass mehr Simulationen
benötigt werden, um unser aktuelles Wissen über die Natur mit den tatsächlichen
Messungen zu vergleichen. Ein Grund für den drastischen Anstieg der gemessenen
Daten in der Zukunft ist das High Luminosity Upgrade am LHC, bei dem Kollisionen
mit einer viel höheren Rate stattfinden werden, wodurch die Anzahl der gemessenen
Kollisionen drastisch ansteigt.
Von besonderem Interesse für den Umfang dieser Arbeit ist das CMS High Granular
Calorimeter (HGCal), das die derzeitigen Endkappen-Kalorimeter von CMS ersetzen
wird. Dieser Detektor umfasst ca. 3 Millionen hexagonale Auslesezellen pro Endkappe,
was ihn zu einem Gerät macht, das in der Lage ist, feinkörnige Schauer zu erzeugen.
Außerdem wird ein System implementiert, das den Zeitpunkt einer Messung in einer
Detectorzelle mit einer Auflösung von etwa 30 ps aufzeichnen kann, was bei der Unterdrückung
von pile-up und der Rekonstruktion von Trajektorien individueller Teilchen
hilfreich sein wird. Generatives maschinelles Lernen hat in letzter Zeit an Bedeutung
gewonnen, da sie das Potenzial hat, die Standardsimulationstechniken zu ergänzen..
Diese Arbeit konzentriert sich auf mehrere generative Modelle, die uns dem Ziel
einer schnelleren und genaueren Simulation näher bringen. Die erste Studie wurde mit
Graph Neural Networks durchgeführt, da Graphen eine sehr natürliche Art und Weise
sind, elektromagnetische Schauer zu beschreiben, aber in Bezug auf die Skalierbarkeit
Mängel aufweisen. Wir fanden heraus, dass es sinnvoll ist, bereits vorhandene Informationen
wie die Geometrie des Kalorimeters zu nutzen, um ein solches Netzwerkarchitektur
Netz zu trainieren, aber die hohe Kardinalität führte uns in die Richtung von
Graphen, die mit diesen Informationen wachsen können, aber nur bis zur benötigten
Schauergröße, anstatt die gesamte Anzahl der jederzeit verfügbaren Zellen zu nutzen.
Da sich dieser erste Versuch als zu schwierig erwies und sich die Technologie weiterentwickelte,
haben wir das EPiC-GAN-Modell verwendet, das eine gute Genauigkeit
und eine hohe Generierungsgeschwindigkeit bei Schauern mit geringerer Komplexität
zeigte, aber nicht auf die Kardinalität des HGCal skalieren konnte. Schließlich haben
wir CaloClouds II implementiert, ein Modell, das eine Kombination aus einem Diffusion
Modell mit kontinuierlicher Zeit und einem Normalizing Flow ist, um nicht nur
das HGCal erfolgreich simulieren zu können, sondern auch die Time-of-Hits-Funktion
einzubeziehen, die eine entscheidende Integration in dieses Detektor-Upgrade sein wird.
The field of Particle Physics heavily relies on simulated data in order to perform analyses. The increase in the amount of measured data translates in the need for more simulations used to compare out current knowledge of Nature to actual measurements. One reason for a drastic increase of measured data in the future is the High Luminosity upgrade at the LHC, which will feature collisions at a much higher rate thus drastically increasing the number of measured collisions. Of particular interest for the scope of this work is the CMS High Granular calorimeter (HGCal), which will replace CMS’s current endcap calorimeters. This detector comprises circa 3 million readout hexagonal cells per endcap, making it a machine capable of producing fine-grained showers. It will also implement a system capable of recording the time of a hit measurement with a resolution of circa 30 ps, which will help with pile-up rejection and track reconstruction. Generative Machine Learning has risen recently as it has the potential to augment standard simulation techniques. This thesis focuses on multiple generative models that bring us closer to the goal of faster and more accurate simulation. The first study was performed on Graph Neural Networks, as graphs are a very natural way to describe electromagnetic showers, but this model architecture lacks in terms of scalability. We found that there is value in utilizing already given information like the geometry of the calorimeter to train such a network, but the high cardinality led us toward the direction of graphs that could grow using that information but only until the needed shower size instead of using the whole number of cells available at all times. As this first attempt proved to be too challenging and the technology evolved, we then moved on with the EPiC GAN model, which showed good fidelity and high generation speed on showers with reduced complexity but failed to scale up to the cardinality of the HGCal. Finally, we implemented CaloClouds II, a model that is a combination of a continuous-time diffusion model and normalizing flow, to not only be able to successfully simulate the HGCal calorimeter but to do so by also including the time-of-hits feature which will be a crucial integration in this detector upgrade.